Corpus: snd_wikipedia_2012, 3.7.3 Distribution of the string similarity for different rank ranges

Other corpora

Abkhazian
- Wikipedia
  - 2012 All
Achinese
- Wikipedia
  - 2012 All
Acoli
- Newscrawl
  - 2011 All
Afrikaans
- Mixed
  - 2013 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2013 All
  - 2013 10K
  - 2013 30K
  - 2013 100K
- Web
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2013 All
  - 2013 10K
  - 2013 30K
  - 2013 100K
  - 2013 300K
- Wikipedia
  - 2007 All
  - 2007 10K
  - 2007 30K
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
- South Africa
  - Web
    - 2013 All
    - 2013 10K
    - 2013 30K
    - 2013 100K
    - 2013 300K
    - 2013 1M
Akan
- Wikipedia
  - 2012 All
Albanian
- News
  - 2010 All
  - 2011 All
- Newscrawl
  - 2011 All
- Wikipedia
  - 2012 All
Amharic
- Wikipedia
  - 2011 All
  - 2012 All
Arabic
- News
  - 2005-2009 All
  - 2007 All
  - 2007 10K
  - 2007 30K
  - 2007 100K
  - 2007 300K
  - 2008 All
  - 2008 10K
  - 2008 30K
  - 2008 100K
  - 2008 300K
  - 2008 1M
  - 2009 All
  - 2009 10K
  - 2009 30K
  - 2009 100K
  - 2009 300K
  - 2009 1M
  - 2010 All
  - 2010 10K
  - 2010 30K
  - 2010 100K
  - 2010 300K
  - 2010 1M
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Newscrawl
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
  - 2013 10K
  - 2013 30K
  - 2013 100K
  - 2013 300K
  - 2013 1M
- Web
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2012 All
  - 2012 10K
  - 2012 30K
- Wikipedia
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
- Algeria
  - Newscrawl
    - 2012 All
  - Web
    - 2011 All
    - 2012 All
- Bahrain
  - Newscrawl
    - 2012 All
  - Web
    - 2011 All
    - 2012 All
- Egypt
  - Newscrawl
    - 2012 All
  - Web
    - 2011 All
    - 2012 All
- Iraq
  - Web
    - 2011 All
    - 2012 All
- Jordan
  - Web
    - 2011 All
    - 2012 All
- Kuwait
  - Newscrawl
    - 2012 All
  - Web
    - 2011 All
    - 2012 All
- Lebanon
  - Newscrawl
    - 2012 All
    - 2012 10K
    - 2012 30K
    - 2012 100K
  - Web
    - 2011 All
    - 2012 All
- Mauritania
  - Newscrawl
  - Web
    - 2011 All
    - 2012 All
- Morocco
  - Newscrawl
    - 2012 All
    - 2012 10K
    - 2012 30K
    - 2012 100K
  - Web
    - 2011 All
    - 2012 All
- Oman
  - Newscrawl
    - 2012 All
  - Web
    - 2011 All
    - 2012 All
- Palestine
  - Newscrawl
    - 2012 All
    - 2012 10K
    - 2012 30K
    - 2012 100K
    - 2012 300K
  - Web
    - 2011 All
    - 2012 All
- Qatar
  - Web
    - 2011 All
    - 2012 All
- Sudan
  - Web
    - 2011 All
    - 2012 All
- Syria
  - Newscrawl
    - 2012 All
    - 2012 10K
    - 2012 30K
    - 2012 100K
    - 2012 300K
  - Web
    - 2011 All
    - 2012 All
- Tunisia
  - Newscrawl
    - 2012 All
    - 2012 10K
    - 2012 30K
    - 2012 100K
  - Web
    - 2011 All
    - 2012 All
- United Arab Emirates
  - News
    - 2012 All
    - 2012 10K
    - 2012 30K
    - 2012 100K
    - 2012 300K
  - Newscrawl
    - 2012 All
  - Web
    - 2011 All
    - 2012 All
- Yemen
  - Web
    - 2011 All
    - 2012 All
Aragonese
- Wikipedia
  - 2011 All
  - 2012 All
Armenian
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2011 All
  - 2012 All
Arpitan
- Wikipedia
  - 2012 All
Assamese
- Wikipedia
  - 2012 All
Assyrian Neo-Aramaic
- Wikipedia
  - 2012 All
Asturian
- Newscrawl
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2011 All
  - 2012 All
Avaric
- Wikipedia
  - 2012 All
Aymara
- Wikipedia
  - 2012 All
Azerbaijani
- Newscrawl
  - 2011 All
  - 2013 All
- Wikipedia
  - 2012 All
Balkan Romani
- Web
  - 2011 All
Bambara
- Wikipedia
  - 2012 All
Banjar
- Wikipedia
  - 2012 All
Bashkir
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2013 All
- Wikipedia
  - 2009 All
  - 2011 All
  - 2011 10K
  - 2012 All
Basque
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2013 All
- Web
  - 2002 All
  - 2012 All
- Wikipedia
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
Bavarian
- Wikipedia
  - 2012 All
Belarusian
- News
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2007 All
  - 2010 All
  - 2010 10K
  - 2010 30K
  - 2010 100K
  - 2012 All
Bengali
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
- Wikipedia
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2012 All
Bihari
- Wikipedia
  - 2012 All
Bikol
- Wikipedia
  - 2012 All
Bishnupriya
- Wikipedia
  - 2011 All
  - 2012 All
Bislama
- Wikipedia
  - 2012 All
Breton
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2007 All
  - 2012 All
Buginese
- Wikipedia
  - 2011 All
  - 2012 All
Bulgarian
- News
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2007 All
  - 2010 All
  - 2010 10K
  - 2010 30K
  - 2010 100K
  - 2010 300K
  - 2012 All
Buriat
- Wikipedia
  - 2012 All
Burmese
- Newscrawl
  - 2011 All
- Wikipedia
  - 2011 All
  - 2012 All
Catalan
- News
  - 2005 All
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
  - 2012 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2012 All
  - 2013 All
- Web
  - 2004 All
  - 2004 1M
  - 2011 All
  - 2012 All
- Wikipedia
  - 2007 All
Cebuano
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2012 All
  - 2013 All
- Wikipedia
  - 2007 All
  - 2007 10K
  - 2007 30K
  - 2011 All
  - 2011 10K
  - 2012 All
Central Bikol
- Wikipedia
  - 2011 All
  - 2011 10K
Central Khmer
- Newscrawl
  - 2011 All
- Wikipedia
  - 2012 All
Central Kurdish
- Web
  - 2012 All
- Wikipedia
  - 2012 All
Chamorro
- Wikipedia
  - 2012 All
Chavacano
- Wikipedia
  - 2012 All
Chechen
- Wikipedia
  - 2012 All
Cherokee
- Wikipedia
  - 2012 All
Cheyenne
- Wikipedia
  - 2012 All
Chinese
- News
  - 2007-2009 All
  - 2012 All
- Newscrawl
  - 2011 All
- Web
  - 2012 All
- China, People's Republic of
  - Web
    - 2011 All
- China, Republic of (Taiwan)
  - Web
    - 2011 All
- Hong Kong
  - Web
    - 2011 All
- Macau
  - Web
    - 2011 All
- TRAD
  - News
    - 2014 All
Choctaw
- Wikipedia
  - 2012 All
Church Slavic
- Wikipedia
  - 2012 All
Chuvash
- Wikipedia
  - 2011 All
  - 2012 All
Classical Nahuatl
- Wikipedia
  - 2011 All
Cornish
- Wikipedia
  - 2012 All
Corsican
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2011 All
  - 2012 All
Cree
- Wikipedia
  - 2012 All
Crimean Tatar
- Wikipedia
  - 2012 All
Czech
- News
  - 2005-2007 All
  - 2005-2007 10K
  - 2005-2007 30K
  - 2005-2007 100K
  - 2005-2007 300K
  - 2005-2007 1M
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
  - 2013 1M
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
- Web
  - 2002 All
  - 2002 10K
  - 2002 30K
  - 2002 100K
  - 2002 300K
  - 2002 1M
  - 2011 All
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
- Wikipedia
  - 2007 All
  - 2007 10K
  - 2007 30K
  - 2007 100K
  - 2007 300K
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
  - 2014 1M
Danish
- News
  - 2005 All
  - 2006 All
  - 2007 All
  - 2008 All
  - 2008 10K
  - 2008 30K
  - 2008 100K
  - 2008 300K
  - 2009 All
  - 2010 All
  - 2011 All
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2013 All
- Web
- Wikipedia
  - 2007 All
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
Dhivehi
- Newscrawl
  - 2011 All
- Wikipedia
  - 2012 All
Dimli
- Wikipedia
  - 2011 All
  - 2012 All
Dutch
- News
  - 2007 All
  - 2008 All
  - 2009 All
  - 2009 10K
  - 2009 30K
  - 2009 100K
  - 2009 300K
  - 2009 1M
  - 2010 All
  - 2010 10K
  - 2010 30K
  - 2010 100K
  - 2010 300K
  - 2010 1M
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2013 All
- Web
- Wikipedia
  - 2007 All
  - 2012 All
- Netherlands
  - Web
    - 2011 All
- South Africa
  - Web
    - 2011 All
Dzongkha
- Wikipedia
  - 2012 All
Eastern Mari
- Wikipedia
  - 2012 All
Eastern Yiddish
- Web
  - 2011 All
  - 2012 All
Egyptian Arabic
- Wikipedia
  - 2011 All
  - 2012 All
Emiliano-Romagnolo
- Wikipedia
  - 2012 All
English
- News
  - 2005 All
  - 2006 All
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
  - 2013 1M
- Web
  - 2012 All
- Wikipedia
  - 2007 All
  - 2010 All
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
- Australia
  - Web
    - 2002 All
    - 2002 300K
    - 2011 All
    - 2012 All
- Canada
  - Web
    - 2002 All
    - 2002 10K
    - 2002 30K
    - 2002 100K
    - 2002 300K
    - 2002 1M
    - 2011 All
    - 2012 All
- EDU
  - Web
    - 2011 All
    - 2012 All
- GOV
  - Web
    - 2011 All
    - 2012 All
- India
  - Web
    - 2011 All
    - 2012 All
- Ireland
  - Web
    - 2011 All
    - 2012 All
- NET
  - Web
    - 2011 All
    - 2012 All
- New Zealand
  - Web
    - 2002 All
    - 2002 10K
    - 2002 30K
    - 2002 100K
    - 2002 300K
    - 2002 1M
    - 2011 All
    - 2012 All
- Pakistan
  - Web
    - 2011 All
    - 2012 All
- South Africa
  - Newscrawl
    - 2013 All
  - Web
    - 2011 All
    - 2011 10K
    - 2011 30K
    - 2011 100K
    - 2011 300K
    - 2011 1M
    - 2012 All
    - 2012 10K
    - 2012 30K
    - 2012 100K
    - 2012 300K
    - 2012 1M
    - 2013 10K
    - 2013 30K
    - 2013 100K
    - 2013 300K
    - 2013 1M
- United Kingdom
  - Web
- United States
  - Web
    - 2011 All
    - 2012 All
Erzya
- Wikipedia
  - 2012 All
Esperanto
- Mixed
  - 2012 All
- Newscrawl
- Web
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
- Wikipedia
  - 2007 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
Estonian
- News
  - 2005 All
  - 2006 All
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2012 All
  - 2014 300K
- Newscrawl
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2013 All
- Web
  - 2011 All
  - 2012 All
Ewe
- Wikipedia
  - 2012 All
Extremaduran
- Wikipedia
  - 2012 All
FRI
- Web
  - 2011 All
  - 2012 All
Faroese
- Newscrawl
- Web
  - 2011 All
  - 2012 All
  - 2013 All
  - 2013 10K
  - 2013 30K
  - 2013 100K
  - 2013 300K
- Wikipedia
  - 2011 All
  - 2012 All
Fiji Hindi
- Wikipedia
Fijian
- Newscrawl
  - 2011 All
- Wikipedia
  - 2012 All
Finnish
- News
  - 2005-2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2013 All
- Web
- Wikipedia
  - 2007 All
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
French
- Mixed
  - 2012 All
- News
  - 2002-2005 All
  - 2002-2005 10K
  - 2002-2005 30K
  - 2002-2005 100K
  - 2002-2005 300K
  - 2002-2005 1M
  - 2005-2008 All
  - 2009 All
  - 2010 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Web
  - 2002 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
- Wikipedia
  - 2007 All
  - 2010 All
  - 2010 1M
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
- Belgium
  - Web
    - 2011 All
    - 2012 All
- Canada
  - Web
    - 2011 All
    - 2012 All
- France
  - Web
    - 2011 All
    - 2012 All
- Luxembourg
  - Web
    - 2011 All
    - 2012 All
- Switzerland
  - Web
    - 2011 All
    - 2012 All
Friulian
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Fulah
- Wikipedia
  - 2012 All
Gagauz
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Galician
- Newscrawl
  - 2012 All
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
Gan Chinese
- Wikipedia
  - 2011 All
  - 2012 All
Ganda
- Newscrawl
  - 2011 All
  - 2013 All
- Wikipedia
  - 2012 All
Georgian
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2013 All
- Web
  - 2011 All
- Wikipedia
  - 2012 All
German
- News
  - 1995 All
  - 1996 All
  - 1997 All
  - 1998 All
  - 1999 All
  - 2000 All
  - 2001 All
  - 2002 All
  - 2003 All
  - 2004 All
  - 2005 All
  - 2006 All
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2010 10K
  - 2010 30K
  - 2010 100K
  - 2010 300K
  - 2010 1M
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
  - 2015 1M
- Newscrawl
- Web
  - 2002 1M
  - 2012 All
- Wikipedia
  - 2007 All
  - 2010 All
  - 2010 1M
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
- Austria
  - Newscrawl
    - 2012 All
  - Web
    - 2011 All
    - 2012 All
- Belgium
  - Newscrawl
    - 2012 All
  - Web
    - 2011 All
    - 2012 All
- Germany
  - Newscrawl
    - 2012 All
- Italy
  - Newscrawl
    - 2012 All
  - Web
    - 2011 All
    - 2012 All
- Luxembourg
  - Newscrawl
    - 2012 All
  - Web
    - 2011 All
    - 2012 All
- Namibia
  - Newscrawl
    - 2012 All
  - Web
    - 2011 All
    - 2012 All
- Switzerland
  - Newscrawl
    - 2012 All
  - Web
    - 2002 All
    - 2002 10K
    - 2002 30K
    - 2002 100K
    - 2002 300K
    - 2002 1M
    - 2011 All
    - 2012 All
- ZZ
  - Web
    - 2011 All
Gheg Albanian
- Web
  - 2011 All
  - 2012 All
Gilaki
- Wikipedia
  - 2011 All
  - 2012 All
Goan Konkani
- Newscrawl
Gothic
- Wikipedia
  - 2012 All
Guarani
- Wikipedia
  - 2012 All
Gujarati
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
- Wikipedia
  - 2012 All
Haitian
- Wikipedia
  - 2011 All
  - 2011 10K
  - 2012 All
  - 2012 10K
Hakka Chinese
- Wikipedia
  - 2012 All
Halh Mongolian
- Web
  - 2011 All
Hausa
- Newscrawl
  - 2011 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Hawaiian
- Wikipedia
  - 2012 All
Hebrew
- News
  - 2007 All
  - 2008 All
  - 2008 10K
  - 2008 30K
  - 2008 100K
  - 2008 300K
  - 2008 1M
  - 2009 All
  - 2010 All
  - 2010 10K
  - 2010 30K
  - 2010 100K
  - 2010 300K
  - 2010 1M
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2010 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
Hindi
- News
  - 2010 All
  - 2011 All
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
  - 2013 All
- Web
- Wikipedia
  - 2007 All
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
Hmong Don
- Web
  - 2012 All
Hungarian
- News
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
  - 2012 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2013 All
- Web
  - 2003 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
- Wikipedia
  - 2007 All
  - 2012 All
Icelandic
- News
  - 2002 All
  - 2002 10K
  - 2002 30K
  - 2002 100K
  - 2002 300K
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2013 All
- Web
  - 2005 10K
  - 2005 30K
  - 2005 100K
  - 2005 300K
  - 2005 1M
  - 2010 10K
  - 2010 30K
  - 2010 100K
  - 2010 300K
  - 2010 1M
- Wikipedia
  - 2010 All
  - 2010 10K
  - 2010 30K
  - 2010 100K
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
Ido
- Wikipedia
  - 2007 All
  - 2012 All
Igbo
- Wikipedia
  - 2012 All
Iloko
- Web
  - 2012 All
- Wikipedia
  - 2012 All
Indonesian
- News
  - 2007 All
  - 2008 All
  - 2008 10K
  - 2008 30K
  - 2008 100K
  - 2008 300K
  - 2009 All
  - 2009 10K
  - 2009 30K
  - 2009 100K
  - 2009 300K
  - 2010 All
  - 2010 10K
  - 2010 30K
  - 2010 100K
  - 2010 300K
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
  - 2013 All
- Web
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
- Wikipedia
  - 2007 All
  - 2007 10K
  - 2007 30K
  - 2007 100K
  - 2007 300K
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
Interlingua
- Wikipedia
  - 2011 All
  - 2012 All
Interlingue
- Wikipedia
  - 2012 All
Inuktitut
- Wikipedia
  - 2012 All
Inupiaq
- Wikipedia
  - 2012 All
Irish
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Italian
- News
  - 2002 All
  - 2005-2009 All
  - 2010 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2012 10K
  - 2012 100K
  - 2012 1M
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Wikipedia
  - 2010 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Italy
  - Web
    - 2011 All
- San Marino
  - Web
    - 2011 All
- Slovenia
  - Web
    - 2011 All
- Switzerland
  - Web
    - 2011 All
- Vatican City
  - Web
    - 2011 All
Japanese
- News
- Newscrawl
  - 2011 All
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Javanese
- Wikipedia
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2012 All
Kabardian
- Wikipedia
  - 2012 All
Kabyle
- Wikipedia
  - 2012 All
Kalaallisut
- Newscrawl
- Web
  - 2011 All
- Wikipedia
  - 2012 All
Kalmyk
- Wikipedia
  - 2012 All
Kannada
- Newscrawl
  - 2011 All
- Wikipedia
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2012 All
Kara-Kalpak
- Wikipedia
  - 2012 All
Karachay-Balkar
- Wikipedia
  - 2012 All
Kashmiri
- Wikipedia
  - 2012 All
Kashubian
- Wikipedia
  - 2012 All
Kazakh
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
- Web
  - 2011 All
- Wikipedia
  - 2010 All
  - 2010 10K
  - 2010 30K
  - 2010 100K
  - 2012 All
Khasi
- Web
  - 2011 All
Kikuyu
- Wikipedia
  - 2012 All
Kinyarwanda
- Web
  - 2012 All
- Wikipedia
  - 2012 All
Kirghiz
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
- Web
  - 2011 All
- Wikipedia
Klingon
- Wikia
  - 2011 All
Komi
- Wikipedia
  - 2012 All
Komi-Permyak
- Wikipedia
  - 2012 All
Konkani
- Web
  - 2011 All
  - 2012 All
Koongo
- Wikipedia
  - 2012 All
Korean
- News
  - 2007 All
  - 2008 All
  - 2008 10K
  - 2008 30K
  - 2008 100K
  - 2008 300K
  - 2008 1M
  - 2009 All
  - 2009 10K
  - 2009 30K
  - 2009 100K
  - 2009 300K
  - 2009 1M
  - 2010 All
  - 2010 10K
  - 2010 30K
  - 2010 100K
  - 2010 300K
  - 2010 1M
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2013 All
- Web
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Wikipedia
  - 2007 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
- Japan
  - Web
    - 2011 All
- Korea, South
  - Newscrawl
    - 2012 All
Kurdish
- Newscrawl
Kölsch
- Wikipedia
  - 2012 All
Ladino
- Wikipedia
  - 2012 All
Lak
- Wikipedia
  - 2012 All
Lao
- Newscrawl
  - 2011 All
- Wikipedia
  - 2012 All
Latgalian
- Wikipedia
  - 2012 All
Latin
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2007 All
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
Latvian
- News
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
  - 2012 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2007 All
Ligurian
- Wikipedia
  - 2012 All
Limburgan
- Wikipedia
  - 2011 All
  - 2012 All
Lingala
- Wikipedia
  - 2012 All
Lithuanian
- News
  - 2005 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2007 All
  - 2012 All
Logudorese Sardinian
- Web
  - 2011 All
  - 2012 All
Lojban
- Wikipedia
  - 2012 All
Lombard
- Wikipedia
  - 2011 All
  - 2012 All
Low German
- Wikipedia
  - 2012 All
Lower Sorbian
- Wikipedia
  - 2012 All
Lushai
- Newscrawl
- Web
  - 2011 All
  - 2012 All
Luxembourgish
- Newscrawl
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2007 All
  - 2012 All
Macedo-Romanian
- Wikipedia
  - 2012 All
Macedonian
- News
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
  - 2012 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2012 All
  - 2013 All
- Web
  - 2011 All
- Wikipedia
  - 2007 All
  - 2010 All
  - 2010 10K
  - 2010 30K
  - 2010 100K
  - 2010 300K
  - 2012 All
Malagasy
- Web
- Wikipedia
  - 2011 All
  - 2011 10K
Malay
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2013 All
- Web
  - 2011 All
- Wikipedia
  - 2007 All
  - 2007 10K
  - 2007 30K
  - 2007 100K
  - 2012 All
Malayalam
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
- Wikipedia
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
Maltese
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
- Web
  - 2011 All
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
- Wikipedia
  - 2012 All
  - 2012 10K
Mandarin Chinese
- Wikipedia
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
Manx
- Wikipedia
  - 2012 All
Maori
- Web
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
- Wikipedia
  - 2011 All
  - 2012 All
Marathi
- News
  - 2010 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2012 All
  - 2013 All
- Web
  - 2011 All
- Wikipedia
  - 2009 All
  - 2012 All
Marshallese
- Wikipedia
  - 2012 All
Mazanderani
- Wikipedia
  - 2012 All
Middle High German (ca. 1050-1500)
- Web
  - 1300 All
Min Dong Chinese
- Wikipedia
  - 2012 All
Min Nan Chinese
- Wikipedia
  - 2011 All
  - 2012 All
Mingrelian
- Wikipedia
  - 2012 All
Mirandese
- Wikipedia
  - 2012 All
Modern Greek
- News
  - 2007 All
  - 2007 10K
  - 2007 30K
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Web
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Wikipedia
  - 2007 All
  - 2007 10K
  - 2007 30K
  - 2007 100K
  - 2012 All
Moksha
- Wikipedia
  - 2012 All
Mongolian
- News
  - 2011 All
  - 2011 100K
- Newscrawl
  - 2011 All
- Web
  - 2012 All
  - 2013 All
- Wikipedia
  - 2012 All
- CYR
  - News
    - 2011 All
  - Newscrawl
    - 2011 All
  - Wikipedia
    - 2010 All
Nahuatl
- Wikipedia
  - 2011 All
  - 2012 All
Nauru
- Wikipedia
  - 2012 All
Navajo
- Wikipedia
  - 2012 All
Ndonga
- Wikipedia
  - 2012 All
Neapolitan
- Wikipedia
  - 2011 All
  - 2012 All
Nepali
- News
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2012 All
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Newari
- Wikipedia
  - 2009 All
  - 2012 All
North Azerbaijani
- Web
  - 2011 All
- Wikipedia
  - 2007 All
- Azerbaijan
  - Web
    - 2011 All
- Georgia
  - Web
    - 2011 All
- LATN
  - Web
    - 2011 All
Northern Frisian
- Wikipedia
  - 2012 All
Northern Kurdish
- Web
  - 2011 All
Northern Sami
- Web
  - 2011 All
- Wikipedia
  - 2012 All
Northern Uzbek
- CYR
  - Newscrawl
    - 2011 All
- CYRL
  - Web
    - 2011 All
- LAT
  - Newscrawl
    - 2011 All
- LATN
  - Web
    - 2011 All
Norwegian
- News
  - 2012 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Norwegian Bokmål
- News
  - 2005 All
  - 2006 All
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
- Newscrawl
  - 2011 All
- Web
- Wikipedia
  - 2007 All
Norwegian Nynorsk
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2007 All
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
Novial
- Wikipedia
  - 2012 All
Nyanja
- Wikipedia
  - 2012 All
Occitan
- Web
  - 2011 All
- Wikipedia
  - 2007 All
  - 2012 All
  - 2012 10K
  - 2012 30K
Old English
- Wikipedia
  - 2012 All
Old Norse
- Web
  - 2012 All
Oriya
- Wikipedia
  - 2012 All
Oromo
- Wikipedia
  - 2012 All
Ossetian
- Web
  - 2011 All
- Wikipedia
  - 2011 All
  - 2012 All
PRV
- Web
  - 2011 All
  - 2012 All
Pali
- Wikipedia
  - 2012 All
Pampanga
- Wikipedia
Pangasinan
- Wikipedia
  - 2012 All
Panjabi
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2012 All
  - 2013 All
- Wikipedia
  - 2012 All
Papiamento
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2013 All
- Wikipedia
  - 2012 All
Pedi
- Mixed
  - 2013 All
- Web
  - 2013 All
- Wikipedia
  - 2012 All
- South Africa
  - Web
    - 2013 All
Pennsylvania German
- Wikipedia
  - 2007 All
  - 2012 All
Persian
- News
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Web
Pfaelzisch
- Wikipedia
  - 2012 All
Picard
- Wikipedia
  - 2012 All
Piemontese
- Wikipedia
  - 2011 All
  - 2012 All
  - 2012 10K
  - 2012 30K
Pitcairn-Norfolk
- Wikipedia
  - 2012 All
Plateau Malagasy
- Web
  - 2011 All
- Wikipedia
  - 2012 All
Pohnpeian
- Web
  - 2012 All
Polish
- News
  - 2005 All
  - 2007 All
  - 2008 All
  - 2010 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
Pontic
- Wikipedia
  - 2012 All
Portuguese
- News
  - 2005 All
  - 2006 All
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
  - 2012 All
  - 2013 1M
- Newscrawl
  - 2012 All
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
- Angola
  - Web
    - 2011 All
- Brazil
  - Newscrawl
    - 2011 All
    - 2011 10K
    - 2011 30K
    - 2011 100K
    - 2011 300K
    - 2011 1M
  - Web
    - 2011 All
- Macau
  - Newscrawl
    - 2011 All
    - 2011 10K
    - 2011 30K
    - 2011 100K
    - 2011 300K
    - 2012 All
  - Web
    - 2011 All
- Mozambique
  - Newscrawl
    - 2012 All
  - Web
    - 2011 All
- Portugal
  - Newscrawl
    - 2011 All
    - 2011 10K
    - 2011 30K
    - 2011 100K
    - 2011 300K
    - 2011 1M
Pushto
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
- Wikipedia
  - 2012 All
Quechua
- Wikipedia
  - 2011 All
  - 2011 10K
  - 2012 All
  - 2012 10K
Romance
- TARA
  - Wikipedia
    - 2012 All
Romanian
- News
  - 1998-2007 All
  - 2005 All
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2013 All
- Wikipedia
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2012 All
Romansh
- Newscrawl
  - 2011 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Romany
- Wikipedia
  - 2012 All
Roria
- Web
  - 2011 All
  - 2012 All
Rundi
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Russian
- News
  - 2007 All
  - 2008 All
  - 2009 All
  - 2009 10K
  - 2009 30K
  - 2009 100K
  - 2009 300K
  - 2009 1M
  - 2010 All
  - 2010 10K
  - 2010 30K
  - 2010 100K
  - 2010 300K
  - 2010 1M
  - 2011 All
  - 2012 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Web
  - 2002 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
- Wikipedia
  - 2007 All
  - 2010 All
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Armenia
  - Web
    - 2011 All
- Azerbaijan
  - Web
    - 2011 All
- Belarus
  - Web
    - 2011 All
- Kazakhstan
  - Web
    - 2011 All
- Kyrgyzstan
  - Web
    - 2011 All
- Moldova
  - Web
    - 2011 All
- Russia
  - Web
    - 2011 All
- Tajikistan
  - Web
    - 2011 All
- Turkmenistan
  - Web
    - 2011 All
- Ukraine
  - Web
    - 2011 All
Rusyn
- Wikipedia
  - 2010 All
  - 2012 All
Sami
- Newscrawl
  - 2011 All
  - 2013 All
Samoan
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Samogitian
- Wikipedia
  - 2011 All
  - 2012 All
Sango
- Wikipedia
  - 2012 All
Sanskrit
- Newscrawl
  - 2011 All
  - 2013 All
- Wikipedia
  - 2011 All
  - 2012 All
Sardinian
- Wikipedia
  - 2012 All
Scots
- Web
  - 2011 All
- Wikipedia
  - 2011 All
  - 2012 All
Scottish Gaelic
- Newscrawl
  - 2011 All
- Wikipedia
  - 2007 All
  - 2012 All
Serbian
- CYRL
  - Web
    - 2011 All
Serbo-Croatian
- Bosnia and Herzegovina
  - Newscrawl
    - 2011 All
    - 2011 10K
    - 2011 30K
    - 2011 100K
    - 2011 300K
    - 2013 All
  - Web
    - 2011 All
    - 2012 All
  - Wikipedia
    - 2007 All
    - 2012 All
- Croatia
  - News
    - 2005 All
    - 2007 All
    - 2008 All
    - 2009 All
    - 2010 All
    - 2011 All
  - Newscrawl
    - 2011 All
    - 2011 10K
    - 2011 30K
    - 2011 100K
    - 2011 300K
    - 2011 1M
    - 2012 All
    - 2013 All
  - Web
    - 2011 All
    - 2012 All
  - Wikipedia
    - 2007 All
    - 2012 All
- Serbia
  - News
    - 2008 All
    - 2009 All
    - 2010 All
    - 2011 All
  - Newscrawl
    - 2011 All
    - 2011 10K
    - 2011 30K
    - 2011 100K
    - 2011 300K
    - 2011 1M
  - Web
    - 2011 All
  - Wikipedia
    - 2007 All
    - 2010 All
    - 2010 10K
    - 2010 30K
    - 2010 100K
    - 2010 300K
    - 2012 All
Shona
- Web
  - 2012 10K
  - 2012 30K
- Wikipedia
  - 2012 All
- Zimbabwe
  - Newscrawl
    - 2013 10K
    - 2013 30K
  - Web
    - 2013 All
    - 2013 10K
Sicilian
- Wikipedia
  - 2011 All
  - 2012 All
Silesian
- Wikipedia
  - 2012 All
Sindhi
- Wikipedia
  - 2012 All
Sinhala
- Newscrawl
  - 2011 All
  - 2013 All
- Wikipedia
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2012 All
Slovak
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2007 All
  - 2012 All
Slovenian
- News
  - 2005 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2007 All
  - 2012 All
Somali
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2012 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
South Azerbaijani
- Web
  - 2012 All
South Ndebele
- South Africa
  - Web
    - 2013 All
Southern Sotho
- Web
- Wikipedia
  - 2012 All
- South Africa
  - Web
    - 2013 All
Spanish
- News
  - 2001-2002 All
  - 2006 All
  - 2006 10K
  - 2006 30K
  - 2006 100K
  - 2006 300K
  - 2006 1M
  - 2007 All
  - 2007 10K
  - 2007 30K
  - 2007 100K
  - 2007 300K
  - 2007 1M
  - 2008 All
  - 2008 10K
  - 2008 30K
  - 2008 100K
  - 2008 300K
  - 2008 1M
  - 2009 All
  - 2009 10K
  - 2009 30K
  - 2009 100K
  - 2009 300K
  - 2009 1M
  - 2010 All
  - 2010 10K
  - 2010 30K
  - 2010 100K
  - 2010 300K
  - 2010 1M
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Argentina
  - Web
    - 2011 All
- Bolivia
  - Web
    - 2011 All
- Mexico
  - Web
    - 2002 All
    - 2002 10K
    - 2002 30K
    - 2002 100K
    - 2002 300K
    - 2002 1M
    - 2011 All
- Spain
  - Web
    - 2011 All
- United States
  - Web
    - 2011 All
Sranan Tongo
- Wikipedia
  - 2012 All
Standard Estonian
- Web
  - 2012 All
- Wikipedia
  - 2012 All
Standard Latvian
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Sundanese
- Web
  - 2011 All
- Wikipedia
Swahili
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2012 All
Swati
- South Africa
  - Web
    - 2013 All
Swedish
- News
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2013 All
- Web
- Wikipedia
  - 2007 All
  - 2012 All
Swiss German
- Wikipedia
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
Tagalog
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2012 All
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
Tahitian
- Wikipedia
  - 2012 All
Tajik
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
- Web
  - 2011 All
  - 2012 All
- Wikipedia
Tamil
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2013 All
- Wikipedia
  - 2012 All
Tatar
- News
- Newscrawl
  - 2011 All
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Telugu
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2013 All
- Wikipedia
  - 2012 All
Tetum
- Web
  - 2011 All
- Wikipedia
  - 2012 All
Thai
- Newscrawl
- Web
  - 2011 All
- Wikipedia
  - 2012 All
Tibetan
- Newscrawl
  - 2011 All
- Wikipedia
  - 2012 All
Tigrinya
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Tok Pisin
- Newscrawl
  - 2011 All
- Wikipedia
  - 2012 All
Tonga (Tonga Islands)
- Wikipedia
  - 2012 All
Tosk Albanian
- News
  - 2005 All
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2007 All
Tsimihety Malagasy
- Web
  - 2011 All
  - 2012 All
Tsonga
- Wikipedia
  - 2012 All
- South Africa
  - Web
    - 2013 All
Tswana
- Web
  - 2013 All
- Wikipedia
  - 2012 All
- Botswana
  - Newscrawl
    - 2013 All
- South Africa
  - Web
    - 2013 All
Tumbuka
- Wikipedia
  - 2012 All
Turkish
- News
  - 2005 All
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
  - 2012 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2013 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Turkmen
- Wikipedia
  - 2012 All
- LATN
  - Web
    - 2011 All
    - 2012 All
Twi
- Wikipedia
  - 2012 All
Udmurt
- Web
  - 2011 All
- Wikipedia
  - 2012 All
Uighur
- Newscrawl
  - 2011 All
- Wikipedia
  - 2012 All
Ukrainian
- News
  - 2012 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
  - 2012 All
  - 2013 All
- Web
  - 2011 All
  - 2012 All
  - 2012 10K
  - 2012 30K
  - 2012 100K
  - 2012 300K
  - 2012 1M
- Wikipedia
Upper Sorbian
- Mixed
  - 2012 All
- News
  - 1999 All
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2012 All
Urdu
- News
  - 2007 All
  - 2008 All
  - 2009 All
  - 2010 All
  - 2011 All
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2013 All
- Wikipedia
  - 2007 All
  - 2012 All
Uzbek
- Newscrawl
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
- Wikipedia
  - 2012 All
Venda
- Web
  - 2011 All
- Wikipedia
  - 2012 All
- South Africa
  - Web
    - 2013 All
Venetian
- Wikipedia
  - 2011 All
  - 2012 All
Vietnamese
- News
- Newscrawl
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2011 300K
  - 2011 1M
- Wikipedia
Vlaams
- Wikipedia
  - 2012 All
Volapük
- Wikipedia
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2012 All
Võro
- Wikipedia
  - 2012 All
Walloon
- Wikipedia
  - 2011 All
  - 2012 All
Waray (Philippines)
- Wikipedia
  - 2011 All
  - 2012 All
Welsh
- Web
  - 2011 All
  - 2012 All
- Wikipedia
  - 2007 All
  - 2012 All
West Central Oromo
- Web
  - 2012 All
Western Frisian
- Newscrawl
  - 2011 All
  - 2013 All
- Wikipedia
  - 2011 All
  - 2011 10K
  - 2011 30K
  - 2011 100K
  - 2012 All
Western Mari
- Wikipedia
  - 2011 All
  - 2012 All
Western Panjabi
- Wikipedia
  - 2011 All
  - 2012 All
Wolof
- Wikipedia
  - 2012 All
Wu Chinese
- Wikipedia
  - 2012 All
Xhosa
- Wikipedia
  - 2012 All
Yakut
- Wikipedia
Yiddish
- Wikipedia
  - 2011 All
  - 2012 All
Yoruba
- Wikipedia
  - 2011 All
  - 2012 All
Zeeuws
- Wikipedia
  - 2012 All
Zhuang
- Wikipedia
  - 2012 All
Zulu
- Mixed
  - 2013 All
  - 2014 100K
- News
- Web
  - 2012 All
  - 2012 10K
- Wikipedia
  - 2012 All
- South Africa
  - Web
    - 2013 All
    - 2013 10K

3.7.3 Distribution of the string similarity for different rank ranges

Distribution of the Levenshtein distance for words of rank

String similarity for top-1.000 words

Distance	Percentage of words
0	2.8986
1	15.9420
2	81.1594

String similarity for top-10.000 words

Distance	Percentage of words
0	1.4143
1	11.7454
2	86.8403

String similarity for top-100.000 words

Distance	Percentage of words
0	1.0109
1	12.4279
2	86.5613

String similarity for top-1.000.000 words

Distance	Percentage of words
0	1.0109
1	12.4279
2	86.5613

101 msec needed at 2017-10-24 01:00